实用|Cloudera数据科学工作台入门指南

作者：我是小章丘 | 来源：互联网 | 2023-08-24 16:09

在本篇博文中，我将简要介绍其功能和架构，以及通过三个简单步骤将Cloudera数据科学工作台连接到您现有CDH

点击上方“公众号” 可以订阅哦！

作者：Tristan Zajonc

网址：http://blog.cloudera.com/blog/2017/05/getting-started-with-cloudera-data-science-workbench/

◆◆◆

前两周，Cloudera公司宣布了Cloudera 数据科学工作台（Cloudera Data Science Workbench）的通用版本的发布。在本篇博文中，我将简要介绍其功能和架构，以及通过三个简单步骤将Cloudera 数据科学工作台连接到您现有CDH集群的快速入门指南。

Cloudera 数据科学工作台的核心是为企业提供自助式数据科学。数据科学家可以在短时间内快速构建、扩展和部署数据科学以及机器学习解决方案，同时能够利用Cloudera公司的企业数据中心(EDH)的全部能力和安全功能。

Cloudera数据科学工作台的核心功能

Projects

Collaborative hub for enterprise data science with isolated projects, secure collaboration, and simple dependency management.

项目

具有项目独立、安全协作和简单依赖关系管理性能的企业数据科学协作中心。

Workbench

Integrated development environment for Python, R, and Scala with support for Spark 2 and connectivity to secured CDH clusters.

工作台

适用于Python、R和Scala的集成开发环境，支持Spark 2，并且与安全CDH集群的相连接。

Jobs

Lightweight job and pipeline system for data science workload that supports real-time monitoring, results tracking, and email alerting.

作业

适用于数据科学工作负载的轻量级作业和管道系统，支持实时监控、结果跟踪和电子邮件提醒。

自我们开始构建Cloudera数据科学工作台以来，我们的目标就是致力于为数据科学家、分析技术负责人和IT管理员提供其喜欢的解决方案。这意味着针对数据科学家提供其所需的零配置和真正的灵活性，针对分析技术负责人提供其所需的多租户和无缝协作功能，以及针对IT管理员提供其所需的易于集成和高安全性。在很长一段时间里，这些目标之间一直存在冲突。

通过利用Cloudera数据科学工作台1.0版本，我们相信我们已经实现了上述这些目标。具体来说，Cloudera数据科学工作台为不同团队提供了各种便利。

Cloudera数据科学工作台的主要优点

Data Scientists

数据科学家

Get more done, faster, on more data

更快更好地处理更多的数据

●Stat coding faster – no setup required

●更快的统计编码- 无需设置

●Use existing Python and R libraries

●使用现有的Python和R库

●Access secure Hadoop environments

●访问安全的Hadoop环境

●Easily automate, share, and deploy project code

非常方便地自动化、共享和部署项目代码

Analytics leaders

分析技术负责人

Scale the data science practice

扩大数据科学实践

●Deliver more projects, faster

●更快地提供更多的项目

●Easily onboard team members

●轻松使团队成员协作

●Enforce library standards, drive reuse

●执行库标准，促进再利用

●Enable collaboration between data scientists and business teams.

●实现数据科学家和业务团队之间的协作

IT/operations

IT/运营

Reduce costs, risk, and fragmentation

节约成本、降低风险和存储残片

●Deliver self-service, shared analytics infrastructure

●提供自助服务，共享分析基础架构

●Leverage existing Hadoop investments

●利用现有的Hadoop投资

●Maintain security, governance, auditability, and SLAs

●维持安全性、治理性、可审计性和SLA（服务等级协议）

这些功能和优点的实现依赖于Cloudera 数据科学工作台的底层架构。为了了解其是如何实现的，下面我将进行更深入的说明。

数据科学的安全性、可扩展性、多租户网关

Cloudera 数据科学工作台在一个CDH集群上运行一个或多个专用网关主机。Cloudera Manager可确保Cloudera 数据科学工作台具有安全访问CDH集群所必需的库和配置，而无需其他配置。此外，数据科学家不必通过下载或安装步骤即可直接从网络浏览器访问Cloudera 数据科学工作台。

Cloudera 数据科学工作台连接至现有CDH集群

为了确保用户可以在没有IT干预的情况下使用其所需的所有工具和库，Cloudera 数据科学工作台使用Docker容器来运行独立的用户工作负载。针对每一个项目，用户可以使用不同版本的库和系统包运行R、Python和Scala工作负载。CPU和内存也是相对独立的，确保了在多租户设置中可靠、可扩展地执行。运行用户工作负载的每个Docker容器提供了一个虚拟化网关，可以安全访问集群服务，例如Apache HDFS、Apache Spark 2、Apache Hive和Apache Impala。

Cloudera数据科学工作台从基础开始构建，以支持数据科学团队在单一共享环境中协作完成任务。每次安装从一个主网关节点开始。可以随时增减工作人员网关节点以增加总容量，使之随着使用量的扩展，可以轻松地向最终用户以完全透明的方式添加容量。

Cloudera数据科学工作台可以透明地在多个节点之间调度容器。通过Kubernetes（Cloudera数据科学工作台内部使用的容器编排系统）可以完成此调度操作。不管是Docker还是Kubernetes都不会直接向最终用户公开呈现，用户通过Web应用程序与Cloudera数据科学工作台进行交互。通过防止用户直接访问边缘主机， Cloudera数据科学工作台为最终用户提供了额外的灵活性，同时保持了其安全性。

来自R、Python和Scala的Native Spark 2支持

除了支持独立的R和Python访问CDH服务（例如HDFS、Hive和Impala），Cloudera数据科学工作台也原生支持对Spark 2.1的交互式和批量访问 - Spark 2.1是Spark最新、最好的发布版本。没有必要经历提交Spark应用程序，等待结果，然后在发现错误或意外结果时重新提交应用程序的过程，数据科学家从探索到生产都可以在一个互动工作台中直接工作。

为了充分利用现有CDH集群的全部功能，Cloudera数据科学工作台通过YARN客户端模式发挥Spark的最大效力，其中Spark驱动程序在Cloudera数据科学工作台项目容器中运行，Spark执行程序运行在可以完全访问的CDH集群资源中。通过启用Spark的动态分配功能，Spark仅在必要时才申请资源，从而使集群资源能够以更为细粒度的方式对不同的工作负载动态共享。在容器内运行驱动程序，使得数据科学家能够在完全可定制的环境中轻松地安装软件包并交互式工作；同时，仍能充分利用Spark的分布式执行功能和YARN所具备的强大的多租户功能。

Spark 2支持R、Python和Scala与YARN进行集成，包括动态申请资源以支持长时间运行的交互式会话和批处理作业。

只需三个步骤，即可简单安装

Cloudera数据科学工作台提供了数据科学家、分析技术负责人和IT管理员所喜爱的自助式数据科学经验。幸运的是，将这些功能集成到您现有的CDH集群中也非常容易。

您可以通过访问我们的下载页面下载官方1.0 RPM，然后参照一些简单的安装步骤进行安装。在高级别中，您所需要做的就是：

1. 在Cloudera Manager中配置网关主机。

2. 在主网关主机上安装Cloudera数据科学工作台。

3. 添加零个或多个工作主机（如果需要的话）。

因此，您可以使用R、Python和Scala安全地连接到CDH集群，协作、共享项目和成果，并且可以在单一、安全的多租户环境中加速数据科学从探索向生产演变。

◆◆◆

请点击“阅读全文”进入微站

（更多技术干货、行业动态，请关注【微站】，不定时更新）

推荐阅读

list
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
list
Python爬虫技术基础篇面向对象高级编程（中）的多重继承

本文介绍了Python爬虫技术基础篇面向对象高级编程（中）中的多重继承概念。通过继承，子类可以扩展父类的功能。文章以动物类层次的设计为例，讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例，以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]

蜡笔小新 2023-12-12 16:19:02
php
GetWindowLong函数

今天在看一个代码里头写了GetWindowLong(hwnd,0)，我当时就有点费解，靠，上网搜索函数原型说明，死活找不到第 ... [详细]

蜡笔小新 2023-12-14 17:58:15
ip
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
int
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
shell
WinPythonHadoop在Win10上安装教程

本文介绍了在Win10上安装WinPythonHadoop的详细步骤，包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性，并建议重启电脑以确保安装成功。 ... [详细]

蜡笔小新 2023-12-14 11:26:56
int
如何用UE4制作2D游戏文档——计算篇

篇首语：本文由编程笔记#小编为大家整理，主要介绍了如何用UE4制作2D游戏文档——计算篇相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 09:50:34
int
使用 Ubuntu 中的 Python 获取浏览器历史记录

使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]

蜡笔小新 2023-12-14 08:57:59
buffer
Java String与StringBuffer的区别及其应用场景

本文主要介绍了Java中String和StringBuffer的区别，String是不可变的，而StringBuffer是可变的。StringBuffer在进行字符串处理时不生成新的对象，内存使用上要优于String类。因此，在需要频繁对字符串进行修改的情况下，使用StringBuffer更加适合。同时，文章还介绍了String和StringBuffer的应用场景。 ... [详细]

蜡笔小新 2023-12-13 19:21:06
int
Linux 正则表达式基础及使用注意事项

本文介绍了Linux系统中正则表达式的基础知识，包括正则表达式的简介、字符分类、普通字符和元字符的区别，以及在学习过程中需要注意的事项。同时提醒读者要注意正则表达式与通配符的区别，并给出了使用正则表达式时的一些建议。本文适合初学者了解Linux系统中的正则表达式，并提供了学习的参考资料。 ... [详细]

蜡笔小新 2023-12-13 14:24:45
list
如何从列表中删除所有零？

本文介绍了如何使用python从列表中删除所有的零，并将结果以列表形式输出，同时提供了示例格式。 ... [详细]

蜡笔小新 2023-12-13 13:02:00
ip
Java中闭包的争论以及闭包的定义和特性

闭包一直是Java社区中争论不断的话题，很多语言都支持闭包这个语言特性，闭包定义了一个依赖于外部环境的自由变量的函数，这个函数能够访问外部环境的变量。本文以JavaScript的一个闭包为例，介绍了闭包的定义和特性。 ... [详细]

蜡笔小新 2023-12-13 10:46:54
runtime
flowable工作流流程变量_信也科技工作流平台的技术实践

1背景随着公司业务发展及内部业务流程诉求的增长,目前信息化系统不能够很好满足期望,主要体现如下：目前OA流程引擎无法满足企业特定业务流程需求，且移动端体 ... [详细]

蜡笔小新 2023-12-13 10:17:15
int
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
int
马尔可夫决策过程Markov Decision Process,MDPKintoki

Originalurl:http:www.tuicool.comarticlesb6BjAva1.马尔可夫模型的几类子模型我想大家一定听说过马尔科夫链(MarkovChain)& ... [详细]

蜡笔小新 2023-10-17 08:36:47

我是小章丘

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章